نگاهی بر داده کاوی و کشف قوانین وابستگی
 
خدا شناسی

باسمه تعالي
 
نگاهی بر داده کاوی و کشف قوانین وابستگی
 
چکیده:
با افزايش سيستمهاي كامپيوتر و گسترش تكنولوژي اطلاعات , بحث اصلي در علم كامپيوتر از چگونگي جمع آوري اطلاعات به نحوه استفاده از اطلاعات منتقل شده است . سيستمهاي داده كاوي ,اين امكان را به كاربر مي دهند كه بتواند انبوه داده هاي جمع آوري شده را تفسير كنند و دانش نهفته در آن را استخراج نمايند .
داده كاوي به هر نوع كشف دانش و يا الگوي پنهان در پايگاه داده ها اطلاق مي شود . امروزه داده کاوی به عنوان یکی از مهمترین مسائل هوش مصنوعی و پایگاه داده ، محققان بسیاری را به خود جذب کرده است . در این تحقیق ابتدا نگاه کلی بر داده کاوی ، استراتژیهای داده کاوی و... داریم ، سپس  مسأله کشف قوانین وابستگی در پایگاه داده را به تفضیل بررسی کردیم و نگاهی به الگوریتمهای موجود برای آن داشتیم . سپس مسأله کشف قوانین وابستگی در پایگاه داده های پویا را مورد بحث قرار دادیم و الگوریتم های ارائه شده مربوطه را مطرح کردیم .
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
مقدمه :
هدف از اين اراِئه و تحقيق بررسي روشهاي مطرح داده كاوي است .داده كاوي هر نوع استخراج دانش و يا الگواز داده هاي موجود در پايگاه داده است كه اين دانشها و الگوها ضمني و مستتر در داده ها هستند ,از داده كاوي مي توان جهت امور رده بندي (Classification ) و تخمين (Estimation) ,پيش بيني (Prediction) و خوشه بندي (Clustering)استفاده كرد .داده كاوي داراي محاسن فراواني است . از مهمترين آن محاسن كشف كردن دانش نهفته در سيستم است كه به شناخت بهتر سيستم كمك مي كند .به عنوان مثال مي توان به استفاده تركيبي از روش خوشه بندي جهت تخصيص بودجه به دسته هاي مختلف از كتب اشاره كرد .
سيستمهاي داده كاوي تقريبا از اوايل دهه 1990 مورد توجه قرار گرفتند . علت اين امر نيز آن بود كه تا آن زمان سازمانها بيشتر در پي ايجاد سيستمهاي عملياتي كامپيوتري بودند كه به وسيله آنها بتوانند داده هاي موجود در سازمان خود را سازماندهي كنند . پس از ايجاد اين سيستمها ,روزانه حجم زيادي از اطلاعات جمع آوري ميشد كه تفسير كردن آنها از عهده انسان خارج بود . به همين دليل , نياز به تكنيكي بود كه از ميان انبوه داده معني استخراج كند و داده كاوي به همين منظور ايجاد و رشد يافت .
بنابر اين هدف اصلي از داده كاوي ,كشف دانش نهفته در محيط مورد بررسي است كه اين دانش مي تواند شكلهاي گوناگوني داسته باشد . دانش استخراج شده مي تواند به فرم الگوهاي موجود در داده ها باشد كه كشف اين الگوها منجر به شناخت بهتر سيستم نيز مي شود . الگوهاي استخراجي عموما بيانگر روابط بين ويژگيهاي سيستم هستند بعنوان مثال در سيستم تجاري يك الگو مي تواند بيانگر رابطه بين نوع كالا و ميزان تقاضاي آن باشد .
در اين تحقيق داده كاوي مورد بحث قرار مي گيرد . علل استفاده از داده كاوي و منابعي كه داده كاوي بر روي آنها اعمال مي شود ,علاوه بر اين خلاصه اي از روشهاي رايج داده كاوي ارائه شده است . تكنيكهاي داده كاوي و قوانين وابستگي و الگوريتمهاي موجود (Apriori , Aprior TID, Partition, Eclat ,Max Eclat , Vector ) و الگوريتم با ساختار Trie وfp grow و الگوريتمهاي كاهشي مورد بررسي قرار مي گيرند و در هر مورد مثالها , موارد كاربرد ,تكنيكها و نقاط قوت و ضعف مورد بررسي قرار گرفته اند .  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Data mining(داده كاوي)
تعريف :
Data Mining represents a process developed to examine large amounts of
data routinely collected. The term also refers to a collection of tools used to
perform the process. Data mining is used in most areas where data are
collected-marketing, health, communications, etc.
 
     داده كاوي فرآيند بكارگيري يك يا چند تكنيك آموزش كامپيوتر، براي تحليل و استخراج داده هاي يك پايگاه داده مي باشد.در واقع هدف داده كاوي يافتن الگوهايي در داده هاست.
دانش كسب شده از فرآيند داده كاوي بصورتمدل يا تعميمي از داده ها نشان داده مي شود.
     چندين روش داده كاوي وجود دارد با اين وجود همه روشها  آموزش بر مبناي استنتاج را بكار مي برند.
آموزش بر مبناي استنتاج، فرآيند شكل گيري تعاريف مفهوم عمومي از طريق مشاهده مثالهاي خاص از مفاهيمي كه آموزش داده شده اند، است.
مثال زير نمونه اي از دانش بدست امده از طريق فرايند اموزش بر مبناي استنتاج است:
آيا تا كنون فكر كرده ايد، فروشگاههاي بزرگ اينترنتي در mail هاي خود به مشتريان از چه تبليغاتي استفاده مي كنند؟ و آيا اين تبليغات براي همه مشتريان يكسان است؟
پاسخ اين است كه از روي دانش كسب شده از اطلاعات خريد افراد و نتيجه گيري از اين دانش، اين كار را انجام مي دهند.مثلا در نظر بگيريد يك قانون در پايگاه داده بصورت زير استخراج مي شود:
دقت = 80% :                  سيگار مي خرند ^ نان مي خرند               كساني كه شير مي خرند
از روي اين قانون فروشگاه مي تواند به تمام كساني كه شير مي خرند تبليغات سيگار و انواع نان را نيز بفرستد.همچنين اين قانون در چيدن قفسه هاي فروشگاه نيز بي تاثير نخواهد بود.
{شير و نان و سيگار در قفسه هاي كنار هم چيده شوند}
 
كشف دانش در پايگاه داده 1
 
KDD      يا كشف دانش در پايگاه داده اصطلاحي است كه مكررا بجاي داده كاوي بكار مي رود. از نظر تكنيكي،  KDD كاربردي از روشهاي علمي داده كاوي است.
بعلاوه براي انجام داده كاوي فرايند KDD شامل :
1- يك روش براي تهيه داده ها و استخراج داده ها ،
2- تصميم گيري درباره عملي كه پس از داده كاوي بايد انجام شود، مي باشد.
 
 
 آيا داده كاوي براي حل مسائل ما مناسب است؟
    تصميم گيري در مورد اينكه آيا داده كاوي را به عنوان استراتژي حل مساله بكار ببريم يا نه، يك مساله دشوار است.
اما به عنوان نقطه شروع چهار سؤال عمومي را بايد در نظر بگيريم :
1.      آيا به وضوح مي توانيم مساله را تعريف كنيم ؟
2.      آيا بطور بالقوه داده با معني وجود دارد ؟
3.      آيا داده ها شامل دانش پنهان هستند يا فقط براي هدف گزارشگري مناسبند ؟
4.      آيا هزينه پردازش داده (براي داده كاوي) كمتر از سود حاصل از دانش پنهان بدست آمده از پروژه داده كاوي است ؟
يك مدل پردازش داده كاوي ساده :
 در يك ديد كلي ، ما مي توانيم داده كاوي را به عنوان يك فرآيند چهار مرحله اي تعريف كنيم :
1.      جمع آوري يك مجموعه از داده ها براي تحليل
2.      ارائه اين داده ها به برنامه نرم افزاري داده كاوي
3.      تفسير نتايج
4.     بكارگيري نتايج براي مساله يا موقعيتهاي جديد
شكل فوق يك دياگرام از فرآيند داده كاوي را نشان مي دهد.
 
- جمع آوري داده ها :
     فرآيند داده كاوي احتياج به دسترسي به داده ها دارد. داده ممكن است در تعدادي ركورد، در چندين فايل پايگاه داده ذخيره شود و يا ممكن است داده فقط شامل چند صد ركورد در يك فايل ساده باشد.
با توجه به اينكه معمولا داده هاي واقعي شامل چندين هزار ركورد مي باشند، اولين گام در داده كاوي تهيه زير مجموعه مناسبي از داده براي پردازش است. گاهي اين مرحله احتياج به تلاش انسانهاي بسياري دارد. در كل سه راه متداول براي دستيابي فرآيند داده كاوي به داده وجود دارد :
1.      ذخيره داده در انبار داده 1
2.      ذخيره داده در پايگاه داده رابطه اي
3.      ذخيره داده در فايل ساده
 
 
- داده كاوي :
همانطور كه در شكل مشخص است مرحله بعد داده كاوي است. با اين حال قبل از ارائه داده به ابزار داده كاوي ، چندين انتخاب داريم:
1.      يادگيري بايد تحت كنترل باشد يا بدون كنترل ؟
2.      كدام نمونه ها در داده ها ي جمع آوري شده براي ساخت مدل بكار ميروند و كدامها براي تست مدل ؟
3.      كدام صفتها از صفتهاي موجود انتخاب مي شوند ؟
و ....
 
- تفسير نتايج :
     در اين مرحله خروجيهاي مرحله داده كاوي آزمايش مي شوند تا مشخص شود كه آيا اين نتايج قابل استفاده و جالب هستند يا نه؟ همانطور كه در شكل مي بينيم اگر نتايج بهينه نباشد مي توانيم فرآيند داده كاوي را با صفات و نمونه هاي جديد تكرار كنيم. همچنين ما مي توانيم به انبار داده  مراجعه كنيم و فرآيند استخراج دانش را تكرار كنيم.
 
ـ بكارگيري نتايج :
     هدف نهايي ما بكارگيري نتايج براي موقعيتهاي جديد است. به عنوان مثال دانشي كه در يك پايگاه داده فروشگاه بيان مي كند كساني كه مجله ورزشي مي خرند همچنين سيگار هم مي خرند؛ در شكل گيري استراتژيهاي فروشگاه در چيدن قفسه ها ، تهيه كاتالوگ ها و ... تاثير مي گذارد.
 
استراتژيهاي داده كاوي :
     همانطور كه در شكل زير مي بينيم استراتژيهاي داده كاوي بطور كلي مي توانند به دو دسته تحت كنترل يا بدون كنترل تقسيم مي شوند. آموزش تحت كنترل مدلهايي را با بكارگيري صفات ورودي براي تشخيص   مقدار صفت خروجي مي سازد. حتي برخي از الگوريتمهاي آموزش تحت كنترل امكان تشخيص چندين صفت خروجي را به ما مي دهند. به صفات خروجي ، صفات وابسته نيز
 مي گوييم. زيرا مقدار آنها به مقدار يك يا چند صفت ورودي بستگي دارد. به همين ترتيب به صفات ورودي، صفات مستقل نيز مي گوييم.
هنگامي كه آموزش بدون كنترل را بكار مي بريم تمامي صفات ورودي هستند و صفت خروجي نداريم.
     آموزش تحت كنترل با توجه به اينكه صفات خروجي مقوله اي هستند يا عددي و آيا مدلهاي ايجاد شده براي مشخص كردن موقعيت كنوني ايجاد شدند يا پيش بيني خروجيهاي آينده ، به چندين قسمت تقسيم مي شوند. (منظور از صفات مقوله اي ، صفاتي هستند كه مقدار آنها تعداد محدود و مشخصي است، مثل صفاتي كه مقدار آنها Boolean است كه دو مقدار {true, false} دارد).
 
طبقه بندي1 :
طبقه بندي احتمالا از همه استراتژيهاي داده كاوي قابل درك تر است. طبقه بندي سه خصوصيت دارد :
1.      آموزش تحت كنترل است.
2.      متغير وابسته ، مقوله اي است.
3.      تاكيد بر روي ساخت مدلهايي است كه قادر به اختصاص نمونه هاي جديد به يكي از كلاسهاي تعريف شده باشند.
 
تخمين2 :
    مشابه طبقه بندي ، هدف يك مدل تخمين نيز مشخص كردن مقدار براي يك صفت خروجي است؛ اما بر خلاف طبقه بندي صفات خروجي براي مساله تخمين، عددي است بجاي مقوله اي .
بعنوان يك مثال براي تخمين ، پايگاه داده اي را در نظر بگيريد كه هر ركورد آن اطلاعاتي را راجع به شخصي دارد مثل : محل زندگي، غذاي روزانه در اغلب روزها، نوع ماشين شخصي ، درآمد ماهانه و ....
هدف الگوريتم تخمين در اين مثال ايجاد مدلي براي تشخيص درآمد ماهانه نمونه هاي جديد (ركوردهاي جديد) مي باشد.{كه بقيه صفات آنها بجز درآمد ماهانه مشخص است}.
بيشترتكنيكهاي تحت كنترل قادرند كه يا مسائل طبقه بندي را حل كنند يا تخمين ، اما نه هردورا.
 
پيشگوييPerdiction :
     تشخيص تفاوت بين پيش گويي و طبقه بند ي يا تخمين كار ساده اي نيست. با اين حال هدف يك مدل پيش گويي ، برخلاف طبقه بندي يا تخمين، بجاي مشخص كردن رفتار كنوني، مشخص كردن خروجيهاي آينده است. بيشتر روشهاي داده كاوي كه براي طبقه بندي يا تخمين مناسبند، براي ساخت مدلهاي پيش گويي نيز بكار ميروند. عملا اين طبيعت داده است كه مشخص مي كند يك مدل براي تخمين مناست است يا طبقه بندي ويا پيش گويي.
 
 :Unsupervised Clustering دسته بندي بدون كنترل 
  در دسته بندي بدون كنترل، ما ديگر صفات خروجي نداريم كه ما را در فرآيند يادگيري راهنمايي كند، در عوض برنامه مربوطه ساختارهاي دانش را با بكارگيري معيارهاي  كيفيت دسته براي گروه بندي داده ها به دو يا چند كلاس (دسته)، بدست مي آورد. .
    يك هدف اساسي دسته بندي بدون كنترل، كشف ساختارهاي مفهومي در داده است.
كاربردهاي متداول دسته بندي بدون نظارت عبارتند از :
-                   مشخص مي كند كه آيا ارتباطات با معني در شكل مفاهيم مي تواند در داده ما پيدا شود يا نه ؟
-                   كارآيي روش آموزش تحت كنترل را مشخص مي كند.
-                   بهترين صفات ورودي براي آموزش تحت كنترل را مشخص مي كند.
-                   شناسايي از حد خارج شده ها (outlier)
 
تحليل سبد بازاريMarket Basket Analyse          :
     هدف اين مرحله پيدا كردن ارتباطات جالب ميان محصولات (خرده فروشي) است. خروجي اين مرحله به فروشندگان كمك مي كند تا بهتر بتوانند قفسه ها را بچينند يا كاتالوگها را تنظيم كنندو نيز در ايجاد استراتژيهاي فروشگاه نيز كارا است. مثالي از دانش اين مرحله به فرم زير است (در يك فروشگاه)
                                    سيگار مي خرند                   كساني كه قهوه مي خرند
 
 :Supervised Data Mining تكنيكهاي داده كاوي تحت كنترل
 تكنيكهاي داده كاوي براي بكارگيري استراتژي داده كاوي براي يك مجموعه داده بكار مي رود. يك تكنيك داده كاوي از دو قسمت تشكيل شده است:
1.      الگوريتم.
2.      ساختار دانش مربوطه مثل درخت يا يك مجموعه قوانين درخت تصميم كه در قسمتهاي قبلي توضيح داديم.
در اينجا چندين روش ديگر براي داده كاوي نظارت شده ارائه مي دهيم :
 
1. شبكه عصبي :
     يك شبكه عصبي مجموعه اي از نودهاي به هم پيوسته است كه طراحي مي شوند تا رفتار مغز انسان را شبيه سازي كنند.
     چون مغز انسان از بيليونها عصب تشكيل شده و شبكه هاي عصبي كمتر از صد نود دارند مقايسه يك شبكه عصبي و رفتار مغز كمي غير متعارف است. با اين وجود شبكه هاي عصبي با موفقيت ، براي حل مسائل بكار برده مي شوندو براي داده كاوي نيز كاملا ابزار مناسبي است .
شبكه هاي عصبي در شكلها و فرمهاي گوناگوني وجود دارند و هم براي آموزش تحت كنترل و هم دسته بندي بدون كنترل بكار مي روند. درهمه موارد ، مقادير ورودي براي شبكه عصبي بايد عددي باشند. شبكه feed-forward يك نوع شبكه عصبي مناسب براي مسائل آموزش تحت كنترل مي باشد.
               
2. برگشت آماري1 نظرات شما عزیزان:
titi
ساعت11:39---11 شهريور 1392
خوب بود بد نبود

نام :
آدرس ایمیل:
وب سایت/بلاگ :
متن پیام:
:) :( ;) :D
;)) :X :? :P
:* =(( :O };-
:B /:) =DD :S
-) :-(( :-| :-))
نظر خصوصی

 کد را وارد نمایید:

 

 

 

عکس شما

آپلود عکس دلخواه:







           
شنبه 28 بهمن 1391برچسب:, :: 18:19
امین عباسیان

درباره وبلاگ


سلام امیدوارم هر جای ایران که هستید سلامت باشید این وبلاگ رو ایجاد کردم تا شما رو بیشتر با دین اسلام اشنا کنم امیدوارم با نظراتتون منو یاری کنید در ضمن اگه سوالی در مورد مسایل دینی داشتین به موبایلم اس ام اس کنید در اسرع وقت پاسخ میدم با تشکر
آخرین مطالب
پيوندها

تبادل لینک هوشمند
برای تبادل لینک  ابتدا ما را با عنوان خدا شناسی و آدرس godisalone.LXB.ir لینک نمایید سپس مشخصات لینک خود را در زیر نوشته . در صورت وجود لینک ما در سایت شما لینکتان به طور خودکار در سایت ما قرار میگیرد.







ورود اعضا:

نام :
وب :
پیام :
2+2=:
(Refresh)

<-PollName->

<-PollItems->

خبرنامه وب سایت:





آمار وب سایت:  

بازدید امروز :
بازدید دیروز :
بازدید هفته :
بازدید ماه :
بازدید کل :
تعداد مطالب : 46
تعداد نظرات : 3
تعداد آنلاین : 1